The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
我们考虑了自主渠道访问(AutoCA)的问题,其中一组终端试图以分布式方式通过常见的无线通道发现具有访问点(AP)的通信策略。由于拓扑不规则和终端的通信范围有限,因此对AutoCA的实用挑战是隐藏的终端问题,在无线网络中臭名昭著,可以使吞吐量和延迟性能恶化。为了应对挑战,本文提出了一种新的多代理深钢筋学习范式,该学习范式被称为Madrl-HT,在存在隐藏码头的情况下为Autoca量身定制。 MADRL-HT利用拓扑见解,并将每个终端的观察空间转变为独立于终端数量的可扩展形式。为了补偿部分可观察性,我们提出了一种外观机制,以便终端可以从载体感知的通道状态以及AP的反馈中推断出其隐藏终端的行为。提出了基于窗口的全球奖励功能,从而指示终端在学习过程中平衡终端的传输机会,以最大程度地提高系统吞吐量。广泛的数值实验验证了我们的解决方案基准测试的优越性能,并通过避免碰撞(CSMA/CA)方案对旧的载体 - 义值访问。
translated by 谷歌翻译
共形预测是一种简单而强大的工具,可以无需任何分布假设来量化不确定性。但是,现有方法只能提供平均覆盖范围保证,这与更强的条件覆盖范围保证相比并不理想。尽管实现确切的条件覆盖范围是不可能的,但近似条件覆盖范围仍然是一个重要的研究方向。在本文中,我们通过利用条件分布的局部近似来提出修改的不符合得分。修改后的分数继承了分裂保形方法的精神,与完整的保形方法相比,这是简单而有效的,但更好地近似条件覆盖范围保证。各种数据集的经验结果,包括图像上的高维年龄回归,表明我们的方法与现有方法相比提供了更紧密的间隔。
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
关键信息提取(KIE)旨在从形式式文档(例如发票)中提取结构化信息(例如,键值对),这迈出了迈向智能文档理解的重要一步。以前的方法通常通过序列标记来处理KIE,这面临处理非扁平序列的困难,尤其是对于表文本混合文档。这些方法还遇到了预定每种文档的固定标签以及标签不平衡问题的麻烦。在这项工作中,我们假设光学特征识别(OCR)已应用于输入文档,并将KIE任务重新制定为在给定目标字段的二维(2D)空间中的区域预测问题。在此新设置之后,我们开发了一个名为“基于区域的文档理解(RDU)”的新型KIE模型,该模型将文本内容和文档的相应坐标作为输入,并试图通过定位类似边界盒的区域来预测结果。我们的RDU首先应用了配备软布局注意力掩蔽和偏置机制的布局感知的BERT,以将布局信息纳入表示形式。然后,通过代表模块启发的区域提案模块从表示形式生成候选区域的列表,该模块灵感来自广泛应用于对象检测的计算机视觉模型。最后,采用区域分类模块和区域选择模块来判断提出的区域是否有效,并分别从所有提出的区域中选择具有最大概率的区域。对四种形式样式文档的实验表明,我们提出的方法可以取得令人印象深刻的结果。此外,我们的RDU模型可以通过不同的文档类型进行培训,这对低资源文档特别有用。
translated by 谷歌翻译
可变形图像注册在医学图像分析的各种任务中起着至关重要的作用。从常规能源优化或深层网络中得出的成功的注册算法需要从计算机专家那里进行巨大努力来井设计注册能源,或者仔细调整特定类型的医疗数据类型的网络架构。为了解决上述问题,本文提出了一种自动学习注册算法(Autoreg),该算法(Autoreg)合作优化了建筑及其相应的培训目标,使非计算机专家,例如医疗/临床用户,以方便地查找现有的注册各种情况的算法。具体而言,我们建立了一个三级框架,以自动搜索机制和合作优化来推导注册网络体系结构和目标。我们对多站点卷数据集和各种注册任务进行图像注册实验。广泛的结果表明,我们的自动化可能会自动学习给定量的最佳深度注册网络并实现最先进的性能,也比主流UNET体系结构显着提高了计算效率(从0.558到0.558至0.270秒,对于3D图像对相同的配置)。
translated by 谷歌翻译
近年来,加固学习(RL)由于其各种应用的巨大成功,近年来越来越兴趣。但是,标准的RL算法只能用于单次奖励功能,并且不能快速适应未经奖励功能。在本文中,我们提倡一般的钢筋学习操作员视图,这使我们能够直接估计从奖励函数映射到价值函数的操作员。学习操作员的好处是我们可以将任何新的奖励函数作为输入纳入并以零拍方式达到其相应的值函数。为了近似这种特殊类型的操作员,我们根据其理论属性设计了许多新颖的操作员神经网络架构。我们的操作网络设计优于现有的方法和通用运营商网络的标准设计,我们展示了在几个任务中的操作员Deep Q学习框架的好处,包括奖励转移到离线政策评估(OPE)并奖励离线转移一系列任务中的策略优化。
translated by 谷歌翻译
成功地应用生成的对抗性网络(GaN)以研究感知单个图像超级度(SISR)。然而,GaN经常倾向于产生具有高频率细节的图像与真实的细节不一致。灵感来自传统细节增强算法,我们提出了一种新的先前知识,先前的细节,帮助GaN减轻这个问题并恢复更现实的细节。所提出的方法名为DSRAN,包括良好设计的详细提取算法,用于捕获图像中最重要的高频信息。然后,两种鉴别器分别用于在图像域和细节域修复上进行监督。 DSRGAN通过细节增强方式将恢复的细节合并到最终输出中。 DSRGAN的特殊设计从基于模型的常规算法和数据驱动的深度学习网络中获得了优势。实验结果表明,DSRGAN在感知度量上表现出最先进的SISR方法,并同时达到保真度量的可比结果。在DSRGAN之后,将其他传统的图像处理算法结合到深度学习网络中,以形成基于模型的深SISR。
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译